package java.com.czy.fetch.service;

import org.w3c.dom.Document;

import java.util.Map;

/***
 * 在Xml文档中按照指定xpath抽取内容
 *
 * @author 陈致远
 * @date 2016/10/21
 */
public interface ExtContentByXPath {

    /**
     * 在指定文档中抽取目录
     *
     * @param doc  含有目录的HTML文档
     * @param path 目录条目XPath路径
     *
     * @return  key-value  key:条目URL、value：章节内容
     */
    Map<String,String> extCataLog(Document doc, String path);

    /**
     * 抽取文章正文
     * @param items key-value key:章节标题、value:章节html
     * @return key-value key:章节标题、value:章节html抽取的正文
     */
    Map<String,String> extContent(Map<String,String> items);
}
